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® Verfahren zur Oberwachung von Bearbeitungsanlagen 

(57) Erfindungsgemafc wird ein Verfahren zur Oberwa- 
chung und/oder Steuerung von Bearbeitungsanlagen, 7ow.F1 
welche zeitabhangige Bearbeitungsparameter aufweisen, 
bereitgestellt. Das erfindungsgemafSe Verfahren umfafct 
die Schritte: 

a) gewunschte zeitabhangige Bearbeitungsparameter 
werden a Is Mefckurve gemessen, 

b) ausden gemessenen Bearbeitu ngspara mete rh werden 
zeitunabhangige Mafczahlen erzeugt, und 

c) die zeitunabhangigen Mafczahlen werden in einen Klas- 
sifikator eingegeben, der zwischen normalen Zustanden 
der Bearbeitungsanlage und anormalen Zustanden der 
Bearbeitungsanlage unterscheidet. 
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Beschreibung 

Die vorliegende Erfindung betrifft ein Verfahren zur 
Uberwachung bzw. Steuerung von Bearbeitungsanlagen, 
insbesondere ein Verfahren zur Uberwachung bzw. Steue- 5 
rung von Bearbeitungsanlagen zur Produktion von integrier- 
ten Halbleiterprodukten. 

Modeme industrielle Produktion istim allgemeinen durch 
einen hohen Grad der Automatisierung gekennzeichnet. Ins- 
besondere in der Halbleiterindustrie ist ein hoher Automati- 10 
sierungsgrad unabdingbar, um international wettbewerbsfa- 
hig sein zu konnen. 

Wahrend der Herstellung durchlaufen die Produkte eine 
Reihe von Bearbeitungsschritten, die automatisiert von un- 
terschiedlichen Bearbeitungsanlagen an dem zu bearbeiten- 15 
den Produkt vorgenommen werden. Beispielsweise durch- 
lauft bei der Produktion eines integrierten Halbleiterpro- 
dukts das Produkt bis zu 600 ProzeBschritte, die zu einem 
groBen Teil nur mit hoch spezialisierten Bearbeitungsanla- 
gen in einer Reinraumumgebung durchgefuhrt werden kon- 20 
nen. Dabei sind haufig mehrere gleichartige Bearbeitungs- 
anlagen zu einem Bearbeitungsbereich ("Bay") zusammen- 
gefaBt. 

Die Kosten fur eine derartige automatisierte Produktion 
werden zu einem groBen Teil von der Frage beeinfluBt, wie 25 
gut und effizient der HerstellungsprozeB uberwacht bzw. ge- 
steuert werden kann, so daB das Verhaltnis der fehlerfreien 
Produkte zu der Gesamtzahl der hergestellten Produkte (= 
Ausbeute) einen moglichst groBen Wert annimmt. 

Leider unterliegen die einzelnen Bearbeitungsschritte 30 
Schwankungen und UnregelmaBigkeiten, die im ungiinstig- 
sten Fall beispielsweise den Defekt mehrerer Chips bzw. des 
ganzen Wafers oder den Ausfall einer Bearbeitungsanlage 
bedeuten konnen. Daher muB jeder einzelne Bearbeitungs- 
schritt moglichst stabil durchgefuhrt werden, um nach der 35 
vollstandigen Prozessierung eines Wafers eine akzeptable 
Ausbeute zu gewahrleisten. 

Im Stand der Technik stehen umfangreiche Methoden zur 
Verfugung, um evtl. vorhandene Fehler auf einem Wafer zu 
lokalisieren und diese Fehler bestimmten Bearbeitungs- 40 
schrittcn zu zuordnen. Ein Teil dieser Methoden verwendet 
jedoch Daten, die erst der kompletten Bearbeitung eines 
Wafers gewonnen werden. Eine Fehlerriickverfolgung ist 
daher oft nur mit einem sehr hohen Aufwand moglich. 

So werden beispielsweise nach der Fertigstellung eines 45 
Wafers im Scheibenpriiffeld verschiedene elektrischc und 
funktionale Parameter wie z. B. Stromergiebigkeiten, Ein- 
satzspannungen von 'IVansistoren, Stand-by-Strome, usw. 
unter verschiedenen Timingbedingungen gemessen und an- 
schlieBend von den Ingenieuren der Produktionstechnik aus- 50 
gewertet. Die Fehlerauswertung gestaltet sich als auBerst 
kompliziert, da im nachhinein festgestellt werden muB, wel- 
che Bearbeitungsschritte fehlerhaft durchgefuhrt wurden. 

Die Durchlaufzeit eines Wafers durch eine Produktionsli- 
nie kann bis zu 8 Wochen betragen. Tritt beispielsweise be- 55 
reits nach 2 Wochen Bearbeitungszeit ein schwerwiegender 
Fehler auf, so kann dieser Fehler mbglicherweise erst nach 
weiteren 6 Wochen Prozessierung erkannt werden. Zum ei- 
nen wird die Fertigungslinie somit unnotigerweise mit Aus- 
schuB belastet, zum anderen werden durch die Zeitverzoge- 60 
rung viele weitere fehlerhafte Wafer produziert bis die Ursa- 
che des Fehlers behoben werden kann. 

Um dieses Problem zu mindem, gibt es zusatzlich Kon- 
trollinstrumente, welche Daten, die wahrend oder nach ei- 
nem Produktionsschritt bzw. mehrerer Produktionsschritte 65 
erfaBt werden, analysieren. 

So werden beispielsweise nach bestimmten Bearbei- 
tungsschritten Wafer dem ProduktionsprozeB entnommen 
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und optisch mit einem Rasterelektronenmikroskop (REM) 
analysiert. Leider sind diese Methoden sehr zeit- und perso- 
nalaufwendig und erfolgen daher nur stichprobenhaft. 

Bei dem Verfahren "Univariate Statistische ProzeBkon- 
trolle (SPC)" werden nach einer logisch zusammenhangen- 
den Folge von ProzeBschritten (z. B. Belacken, Belichten 
und anschlieBendem Atzen) die ProzeBergebnisse (z. B. Li- 
nienbreiten oder Schichtdicken an 2 Wafer eines Loses) 
kontrolliert Treten Abweichungen vom Sollwert auf, wer- 
den MaBnahmen zur Beseitigung der Fehlerursachen ergrif- 
fen. Dabei ergibt sich jedoch die Schwierigkeit, festzustel- 
len, an welcher der in Frage kommenden Bearbeitungs- 
schritte die Ursache der Abweichungen zu fihden ist. 

Bei dem Verfahren "Univariate Statistische Equipment- 
kontrolle (SEC)" werden bei jedem ProzeBschritt uber die 
sog. Equipmentkopplung MeBdaten wie z. B. ProzeBtempe- 
ratur, Spannung, Leistung, GasfluB und Druck, erfaBt und in 
Kontrollkarten eingetragen. Diese Kontrollkarten werden an 
einigen Bearbeitungsschritten daraufhin uberpruft, ob sich 
der erfaBte Parameter innerhalb des Bereiches einer oberen 
Kontrollinie (OKL) und einer unteren Kontrollinie (UKL) 
befindet. Befinden sich die MeBwerte zwischen UKL und 
OKL, so gilt der aktuelle ProzeB als normal. Da es wegen 
des hohen Aufwands jedoch nicht moglich ist, alle Parame- 
terkurven fur alle Anlagen manuell zu untersuchen, be- 
schrankt man sich auf den wichtigsten Parameter. Aber 
seibst wenn man sich auf die wichtigsten Parameter be- 
schrankt, kann diese vorrangig optische Kontrollmethode 
maximal auf einen 3-dimensionalen Parametersatz ange- 
wandt werden. Schon bei einem 2-dimensionalen Parame- 
tersatz wird das Verfahren sehr unubersichtlich. So kann 
beispielsweise die Kombination zweier normaler Parameter 
anormal sein, d. h. eventuell zu einem Chip- oder Anlagen- 
defekt fuhren. Derartige multidimensionalen Kombinations- 
effekte konnen mit den konventionellen Methoden nicht 
aufgelost werden. Die Pflege und Analyse der Kontrollkar- 
ten sind auBerdem sehr zeitaufwendig. 

Es ist daher die Aufgabe der vorliegenden Erfindung, ein 
Verfahren zur Uberwachung und/oder Steuerung von Bear- 
beitungsanlagen bereit zustellen, das die genannten Nach- 
teile der herkommlichen Verfahren vermeidet oder mindert. 

Diese Aufgabe wird von dem Verfahren zur Uberwa- 
chung und/oder Steuerung von Bearbeitungsanlagen gemaB 
Patentanspruch 1 gelost. Weitere vorteilhafte Ausfuhrungs- 
formen, Ausgestaltungen und Aspekte der vorliegenden Er- 
findung ergeben sich aus den Untcranspriichen der Be- 
schreibung und den beiliegenden Zeichnungen. 

ErfindungsgemaB wird ein Verfahren zur Uberwachung 
und/oder Steuerung von Bearbeitungsanlagen, welche zeit- 
abhangige Bearbeitungsparameter aufweisen, bereitgestellt. 
Das erfindungsgemaBe Verfahren umfaBt die Schritte: 

a) gewunschte zeitabhangige Bearbeitungsparameter 
werden als MeBkurve gemessen, 

b) aus den gemessenen Bearbeitungsparametern wer- 
den zeitunabhangige MaBzahlen erzeugt, und 

c) die zeitunabhangigen MaBzahlen werden in einen 
Klassifikator eingegeben, der zwischen normalen Zu- 
standen der Bearbeitungsanlage und anormalen Zu- 
standen der Bearbeitungsanlage unterscheidet. 

Das erfindungsgemaBe Verfahren besitzt den Vorteil, daB 
die Analyse der Daten vollkommen automatisch erfolgt. 
Eine zeit- und damit kostenintensive "manuelle" Uberwa- 
chung von Bearbeitungsanlagen kann vermieden werden. 
Alle gewunschten Parameter konnen gleichzeitig und paral- 
lel, sofort nach der Beendigung eines Bearbeitungsschritts, 
verarbeitet werden. Eine Zeitverzbgerung zwischen dem 
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Auftreten eines Fehlers und dessen Erkennung, wie dies bei 
einer herkommlichen Uberwachung der Bearbeitungsanla- 
gen ublich ist, wird verhindcrt. 

Weiterhin ist es durch das erfindungsgemaBe Verfahren 
moglich, auch multidimensionale Kombinationseffekte pro 5 
blemlos zu erkennen, Es konnen sogar solche Parameter- 
kombinationen erkannt werden, die zwar Auswirkungen auf 
die Funktionsweise einer Anlage haben, obwohl bei dem 
hergestellten Produkt noch keine Auffalligkeiten zu lokali- 
sieren sind. 10 

Bevorzugt wird als Klassifikator ein Neuronales Netz ver- 
wendet. Ein derartiges Neuronales Netz kann als Hardware- 
Losung oder als Software-Losung verwendet werden. 

Insbesondere ist es bevorzugt, wenn ein RCE-Netz ver- 
wendet wird. Dabei steht RCE fiir Restricted Coulomb 15 
Energy. Das RCE-Netz hat die Aufgabe, den erlaubten Para- 
meterbereich einzugrenzen und verschiedene Merkmals- 
klassen voneinander zu separieren und beim sogenannten 
"Recall" die Testvektoren zu klassifizieren. Zur Separation 
werden bevorzugt n-dimensionale Hyperspharen oder Hy- 20 
perquader verwendet. 

Ein RCE-Netz besitzt den Vorteil, daB der Merkmalsraum 
in komplexe Teilbereiche, die nicht notwendigerweise zu- 
sammenhangend sein miissen, eingeteilt wird. Viele andere 
Netzwerktypen separieren den Merkmalsraum durch Hyper- 25 
ebenen. Dies hat den Nachteil, daB nur Probleme bearbeitet 
werden konnen, die eine durch Ebenenschnitte beschreib- 
bare Klasseneinteilung besitzen. Das RCE-Netz erlaubt eine 
fast beliebige Separation des Merkmalsraums. Weiterhin 
wird bei einem RCE-Netz die Anzahl der Zwischenschicht- 30 
neuronen wahrend des Trainings festgelegt, muB also nicht 
von Anfang an bekannt sein. Dariiber hinaus miissen bei ei- 
nem RCE-Netz die Gewichtsvektoren nicht, wie bei anderen 
Netzen, mit Werten vorbelegt werden. Beim RCE-Netz gibt 
es kein "Ubertraining" wie bei den meislen mit dem Back- 35 
propagation-Algorithmus trainierten Netzen. Bei Backpro- 
pagation-Netzen ist die Anzahl der lernbaren Muster durch 
die Neuronenanzahl beschrankt. Wird iiber die maximal 
mogliche Musteranzahl hinaus trainiert, werden zuvor ge- 
lernte Muster wieder "vergessen". Dariiber hinaus konnen 40 
bei einem RCE-Netz zu einem bereits trainiertem Netz neue 
Klassen hinzugefugt werden, ohne das Netz komplett neu 
trainieren zu miissen. 

Entscheidend fur den erfolgreichen Einsatz eines Klassi- 
fikators ist die Auswahl der Lemdaten. In der Regel gelten 45 
Parameterwerte, die haufig auftreten, als typisch oder nor- 
mal. Wahrend des Trainings eines Klassifikators konnen 
auch Parameterwerte auftreten, die untypisch sind oder die 
als anormal angesehen werden sollen. Leider war es bisher 
nicht leicht, derartige anormalen Parameterwerte zu identifi- 50 
zieren. 

Daher wird erfindungsgemaB ein Verfahren zur Filterung 
von Vektoren, die anormal angesehen werden, aus einer- 
Menge von Vektoren bereitgestellt. Das erfindungsgemaB 
Verfahren ist dadurch gekennzeichnet, daB die Distanz von 55 
jedem Vektor zu jedem anderen Vektor mittels eines geeig- 
net gewahlten DistanzmaBes ermittelt wird und diejenigen 
Vektoren herausgefiltert werden, bei denen der Distanzwert 
K der geordneten Folge der Distanzen, bei dem ein vorgege- 
bener Prozentsatz aller Vektoren kleinere Distanzen zu dem 60 
gerade vorliegenden Vektor aufweisen, einen vorgegebenen 
Schwellwert ubersteigL 

Dieses Verfahren besitzt den Vorteil, daB es nicht im Be- 
zug auf die Anzahl der Vektoren und der Dimensionen der 
Vektoren beschrankt ist. 65 

Weitere vorteilhafte Ausfuhrungsformen, Ausgestaltun- 
gen und Aspekte dieses Verfahrens ergeben sich aus den Un- 
teranspriichen. 



Die Erfindung wird nachfolgend anhand von Figuren der 
Zeichnung naher dargestelit. Es zeigen: 

Fig. 1 eine schematische Darstellung eines RCE-Netzes, 

Fig. 2 eine schematische Darstellung eines zweidimen- 
sionalen MaBzahlenraums, und 

Fig. 3a und 3b Distanzplots fur einen normalen Zustand 
(Fig. 3a) und einen anormalen Zustand (Fig. 3b). 

Fig. 1 zeigt eine schematische Darstellung eines RCE- 
Netzes. Die Verwendung des RCE-Netzes gliedert sich in 
zwei Phasen: In der "Trainingsphase" werden dem Netz Bei- 
spielvektoren prasentiert, anhand derer der Merkmalsraum 
in verschiedene Klassen eingeteilt wird. Die Klassen der 
Beispielvektoren miissen beim Training bekannt sein, es 
handelt sich also urn uberwachtes Lernen ("supervised lear- 
ning"). 

In der "Recallphase" werden dem Netz Testvektoren zur 
Klassifikation vorgelegt, und entschieden, ob der Testvektor 
zu einer (oder evtl. zu mehreren) zuvor trainierte Klassen 
zugeordnel werden kann, oder auBerhalb des durch die Klas- 
sen beschriebenen Phasenraums liegt. Neuronale Netze sind 
in gewissen Grenzen in der Lage, von den bekannten Bei- 
spielen (zumindest lokal) zu abstrahieren, und auch nicht- 
trainierte Daten im Rahmen einer vorgegeben Toleranz rich- 
tig zuzuordnen. 

Ein RCE-Netz weist im AUgemeinen drei Schichten auf: 
eine Eingabeschicht 1 (input layer), eine Zwischenschicht 2 
(hidden layer) und eine Ausgabeschicht 3 (output layer). 

Jedes Neuron 5 in der Eingabeschicht 1 stellt eine Dimen- 
sion des n-dimensionalen Inputvektors dar. Die Eingabe- 
schicht 1 ist iiber "Kopplungsvektoren" (= Gewichtsvekto- 
ren) mit jedem Neuron 6 der Zwischenschicht 2 verbunden. 
Alle Neuronen 6 der Zwischenschicht 2 sind mit genau ei- 
nem Neuron 7 der Ausgabeschicht 3, die die Merkmalsklas- 
sen darstellen, verbunden. 

Beim Training des Netzes werden die Gewichtsvektoren 
und die Anzahl der Neuronen 6 in der Zwischenschicht 2 
dynamisch bestimmt, miissen also nicht a priori bekannt 
sein. Als Propagierungsfunktion wird beim Training, wie 
auch beim Recall, ein DistanzmaB, z. B. die euklidische Di- 
stanz oder ein Skalarprodukt, zwischen dem Testvektor und 
alien Gewichtsvektoren berechnet. Weicht der Testvektor 
um weniger als eine vorgegebene GroBe von den Gewichts- 
vektoren ab, "feuert" das entsprechende Neuron 6 der Zwi- 
schenschicht 2 und aktiviert das entsprechende Ausgabe- 
neuron 7. Die Aktivierungen der Zwischenschicht 2 werden 
dabei, im Gegensatz zu einem klassischen Perzeptron, iiber 
eine logische Oder-Funktion miteinander verknupft. Die 
Anzahl der Zwischenschichtneuronen 6 wird wahrend des 
Trainings ermittelt. Werden mehrere Neuronen 6 in der Zwi- 
schenschicht aktiviert, ist die Klassifikation u. U. nicht ein- 
deutig. Das "Gedachtnis" des Netzes ist in den Gewichts- 
vektoren, auch Prototypen genannt, gespeichert. 

Wird als DistanzmaB bei der Bewertung des Inputvektors 
das Skalarprodukt mit den Gewichtsvektoren verwendet und 
erfolgt die Bewertung der von der Zwischenschicht an die 
Ausgabeschicht iibermittelten Aktivierungen eben falls 
durch ein Skalarprodukt, so handelt es sich beim RCE-Netz 
um ein klassisches Mehrschichten-Perzeptron. Um einen 
Prototypen wird ein EinfluBgebiet, eine Hypersphare mit 
vorgegebenen Radius gebildet. 

Benutzt man als DistanzmaB die Funktion: 

d = maxi lw, J - y 4 l < Aj, 

so erhalt man Hyperquader mit den Kantenlangen X- } als Ein- 
fluBgebiete. Das so definierte Netz stellt jedoch kein klassi- 
sches Mehrschichten-Perzeptron mehr dar, sondern kann als 
"verallgemeinertes" Perzeptron bezeichnet werden. 
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Anschaulich betrachtet wird beim Training urn einen 
TYainingsvektor ein EinfluBgebiet, Domane genannt, ein 
Hyperquader bzw. Hypershare mit dem Radius Xj festgelegt. 
Fur weitere Trainingsvektoren (Prototyp) wird getestet, ob 
sich der Vektor im EinfluBgebiet der bisher vorhanden Pro- 5 
totypen befindet, also innerhalb des Hyperquaders bzw. Hy- 
pershare mit Radius Xj, b'egt. 1st dies nicht der Fall, wird ein 
neuer Prolotyp erzeugt und dadurch die Neuronenanzahl der 
Zwischenschicht erhoht. 

Um eine Fehlklassifikation zu vermeiden, werden in der io 
Trainingsphase die entsprechenden Kanten des Hyperqua- 
ders bzw. der Radius der Hypershare des neu erzeugten Pro- 
totyps zuriickgezogen und so an die bereits vorhandenen 
Domanen angepaBt, daB sich diese nicht mehr iiberlappen. 
Beim Domanenruckzug wird die neue Kantenlange bzw. 15 
Radius volumenmaximal berechnet. 

Bei der Verwendung von Hyperquadem anstatt von Hy- 

Srspharen wird der Phasenraum dichter bedeckt, da sich bei 
5erlagerung von Hyperspharen Zwischenraume ergeben. 
Es sind daher bei einem Hyperquaderklassifikator weniger 20 
Trainingsbeispiele notig, um den Merkmalsraum abzudek- 
ken. 

Zur Uberwachung bzw. Steuerung der Bearbeitungsanla- 
gen ist es bevorzugt, wenn das vcrwcndcte RCE-Netz einen 
auf das Intervall [-1, 1] normierten Vektor ais Eingabe er- 25 
halt. Die Komponenten dieses Vektors entstehen aus den 
aufbereiteten Rohdaten dadurch, daB aus zeitabhangigen 
MeBgroBen der gewiinschten ProzeBparameter (Druck, 
Temperatur, GasfluB, usw.) zeitunabhangige charakteristi- 
sche MaBzahlen gebildet werden. Oblicherweise besitzen 30 
die MeBgroBen, je nach Einstellung an der Bearbeitungsan- 
lage, einen unterschiedlichen Wertebereich. Daher ist es be- 
vorzugt, wenn die einzelnen MeBgroBen normiert werden. 
Als Normierungsbereich der MeBgroBen ist das Intervall [0, 
1] bevorzugt. 35 

Die direkte Verarbeitung der normierten MeBgroBen mit 
einem RCE-Netz fuhrt jedoch noch nicht zu brauchbaren 
Ergebnissen. Daher miissen die zeitabhangigen MeBgroBen 
in zeitunabhangige MaBzahlen transformiert werden. Diese 
MaBzahlen erfullen bevorzugt folgende Forderungen: 40 

"Univcrsalitat": fur jeden Parameter soil der gleiche Al- 
gorithmus anwendbar sein, 

"Ahnlichkeitstreue": ahnliche Kurven iiefern ahniiche MaB- 
zahlen, 

"Robustheit": kleine Abweichungen in den Kurven veran- 45 
dem die MaBzahl nur wenig, 

"Normierung": die MaBzahlen sollen auf das Intervall [-1; 
1] normiert sein. 

Es gibt eine Reihe von mathematischen Verfahren, die es 
gestatten, die zeitabhangigen MeBgroBen in zeitunabhan- 50 
gige MaBzahlen unter Beachtung der genannten Forderun- 
gen zu transformieren. 

So kann die zeitabhangige MeBkurve eines gewiinschten 
Parameters durch Polynome approximiert werden. Dabei 
wird die MeBkurve durch eine Linearkombination von vor- 55 
gegebenen Basisfunktionen dargestellt. Die Koeffizenten q 
der Linearkombination, die sich beispielsweise bei minima- 
ler gewichteter Fehlerquadratsumme ergeben, sind als MaB- 
zahlen und somit als Komponenten des Inputvektors fur das 
RCE-Netz geeignet. 60 

Um Rechenzeit zu sparen, ist es dabei bevorzugt, wenn 
als Basisfunktionen orthogonale Polynome, z. B. Tscheby- 
scheff-Polynome, verwendet werden. Die Verwendung von 
Orthogonalpolynomen hat noch den weiteren Vorteil, daB 
nur die Koeffizienten der neuhinzugekommenen Polynome 65 
berechnet werden miissen, sollten zusatzlich zu den bereits 
berechneten Koeffizienten hohere Potenzen der Orthogonal- 
poly nome verwendet werden. 
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Die Verwendung von AbstandsmaBen ist eine weitere 
Methode, um die zeitabhangigen MeBgroBen in zeitunab- 
hangige MaBzahlen unter Beachtung der genannten Forde- 
rungen zu transformieren. 

Dazu wird eine MeBkurve diskretisiert, indem MeBwerte 
zu bestimmten vorgegebenen Zeiten als Komponenten eines 
Vektors x interpretiert werden. Ist ein Vergieichsvektor y, 
z. B. ein Polynom an ebenfalls vorgegebenen Stellen, gege- 
ben, so konnen verschiedene DistanzmaBmethodcn verwen- 
den werden, um Ahnlichkeiten zwischen diesen Vektoren 
festzustellen. 

Viele DistanzmaBe sind Spezialfalle der sogenannten 
Minkowski-q-Metriken (auch - Metrik genannt). Allge- 
mein ist eine Minkowski-q-Metrik definiert als 

dq(x,y) = di ra tf-yty"". 

Jede dieser Metriken eignet sich zur Kurvencharakterisie- 
rung. Berechnet man die dq-Distanz mit einem festcm g vom 
Testvektor x zu einer Referehz y, so erhalt man ein MaB fur 
den Abstand der beiden Vektoren. MiBt man die Distanzen 
zu mehreren, wohldefinierten Vergleichskurven, so lassen 
sich die Parameterkurven mit wahlbarer Genauigkeit cha- 
rakterisieren. Die dq-Distanzen zu den verschiedenen Ver- 
gleichskurven sind als MaBzahlen und somit als Komponen- 
ten des Inputvektors fur das RCE-Netz geeignet. 

Ais Vergleichskurven y werden beispielsweise auf das In- 
tervall [0; 1] transformierte 'Kchebyscheff-Polynome einge- 
setzt. Neben stetigen Vergleichskurven konnen auch belie- 
bige zusammengesetzte Funktionen eingesetzt werden, falls 
dies aufgrund der BeschafTenheit der gemessenen Parame- 
tern notig sein sollte. 

Ein ahnliches Verfahren erhalt man, wenn aus alien zur 
Verfugung stehenden normierten MeBkurven fur jeden ge- 
wiinschten Parameter eine "mittlere" MeBkurve berechnet 
wird. Als MaBzahlen konnen dann verschiedene Abwei- 
chungen, beispielsweise die minimale quadratische Abwei- 
chung zur mittleren MeBkurve oder eine beliebige andere 
Minkowski-q-Metrik verwendet werden. 

Zur Bcrechnung der mittleren MeBkurve (Referenzkurve) 
ist es bevorzugt den Median zu verwenden, da der Median 
robuster als der Mittelwert ist und damit die Referenzkurve 
glatter wird. 

Ein weiteres Verfahren erhalt man, wenn Methoden zur 
Charakterisierung von Bitmaps zur Beschreibung der vor- 
handenen Parameterkurven verwendet werden. Derartige 
Methoden sind in der Druckschrift EP0 783 170 beschrie- 
ben, auf deren Inhalt hierrnit Bezug genommen wird. Dabei 
wird der zeitliche Verlauf eines Parameters als Bitmap be- 
trachtet. Aus den normierten MeBkurven lassen sich z. B. 
folgende MaBzahlen berechnen: 

"Percentage Over Mean": Der Prozentsatz der Werte, die 
iiber dem Mittelwert der gesamten betrachteten MeBkurve 
liegen, 

"Deviation of Mass": Abweichung der Werte vom Massen- 
schwerpunkt, 

"Mass Distribution": Massenverteilung, 

"Fluctuations": stellt ein MaB fiir die Abweichung benach- 

barter Werte dar, 

"Monotony": globale Monotonie der MeBkurve, und 
"Area": Flache, die die Kurve mit der Zeit-Achse ein- 
schlieBl. 

Durch die sechs oben aufgefuhrten MaBzahlen kann jede 
der Kurven aussagekraftig beschrieben werden. Der Input- 
vektor fiir das Neuron ale Netz enthalt somit fur jeden ge- 
wiinschten Parameter 6 MaBzahlen. 

Als Verfahren zur Kurvcncharakterisierung eignet sich 
auch folgende Methode: die beiden Achsen der MeBkurve 
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werden in beispielsweise 3 "aquidistante" Abschnitte unter- 
teilt. In den 9 auf diese Weise entstandenen Abschnitten 
wird der Mittelwert und/oder die Standardabweichung der 
normierten MeBwerte berechnet. Auf diese Weise werden 9 
bzw. 18 MaBzahlen fur den Inputvektor erzeugt. 

Fig. 2 zeigt eine schematische Darstellung eines zweidi- 
mensionalen MaBzahlenraums, der durch die genannten 
MaBzahlen aufgespannt wind. Die Kastchen 10 stehen dabei 
fiir MaBzahlvektoren, die normale Zustande einer Bearbei- 
tungsanlage beschreiben. Diese Vektoren spannen ein Ge- 
biet auf, in dem die Bearbeitungsanlage normal und stabil 
arbeitet. Das Kastchen 11 steht fur einen MaBzahlvektor, der 
einen anormalen Zusland beschreibt, bei dem die Bearbei- 
tungsanlage fehlerhaft arbeitet. Man erkennt, daB dieser 
anormale Zustand bei einem Verfahren "Univariate Statistic 
sche Equipmentkontrolle (SEC)" nicht als anormal erkannt 
worden ware, der MaBzahlvektor sowohl bezuglich Parame- 
ter 1 als auch bezuglich Parameter 2 innerhalb deren jewei- 
liger oberen und unteren Kontrollgrenzen liegt. 

Wie bereits erwahnt gliedert sich die Verwendung eines 
RCE-Netzes in zwei Phasen: "Trainingsphase" und "Recall- 
phase 0 . In der "Trainingsphase" werden dem Netz TVai- 
ningsvektoren prasentiert, anhand derer der Merkmalsraum 
in verschiedene Klassen eingeteilt wird. Hat man es mil ei- 
ner sehr stabil arbeitenden Bearbeitungsanlage zu tun, so 
konnen die aus den MeBgroBen eines stabilen Testlauf der 
Bearbeitungsanlage erzeugten MaBzahlen als Trainingsvek- 
toren (Prototypen) fur einen "normalen" Zustand der Bear- 
beitungsanlage verwendet werden. 

Leider arbeiten Bearbeitungsanlagen jedoch nicht hinrei- 
chend stabil, so daB es wahrend eines Trainings- oder Test- 
laufs immer wieder zu ungewiinschten bzw. "anormalen" 
Zustanden der Beabeitungsanlage kommen kann. Falls sich 
in den TVainingsbeispielen Vektoren befinden, die als "anor- 
mal" bewertet werden sollen, werden diese in einer spater 
folgenden Recall-Phase falschlicherweise als normal er- 
kannt, da sie als dem Netz als normal trainiert wurden. Zur 
Vorbereitung des Trainings des Neuronalen Netzes miissen 
daher die voriiegenden Trainingsvektoren genau analysiert 
werden. Aus alien vorhandenen Trainingsvektoren miissen 
diejenigen herausgefiltert und vom Training ausgeschlossen 
werden, die als "anormal" angesehen werden miissen. Das 
Netz wird bevorzugt so trainiert, daB einerseits alle anorma- 
len Abweichungen, andererseits aber auch alle normalen 
Zustande der Bearbeitungsanlage erkannt werden. Die Zahl 
der Fehlmeldungen sollte bei moglichst hoher Fehlererken- 
nungsrate natiirlich so gering wie moglich sein. 

ErfindungsgemaB wird daher ein Verfahren zur automati- 
schen Erkennung von "anormalen" Zustanden bereitgestellt, 
das ??. 

Dazu wird eine wahlbare Anzahl von Inputvektoren be- 
reitgestellt. Die Inputvektoren konnen sich beispielsweise 
aus einem oder mehreren Testlaufen einer spater zu iiberwa- 
chenden Bearbeitungsanlage ergeben. Dann wird mittels ei- 
nes geeignet gewahlten DistanzmaBes die Distanz von je- 
dem Vektor zu jedem anderen Vektor ermittelt, so daB be- 
vorzugt eine symmetrische Distanzmatrix entsteht, deren 
Hauptdiagonalelemente alle gleich Null sind. Als Distanz- 
maB kann beispielsweise die euklidische Distanz zweier 
Vektoren verwendet werden. 

Die Entscheidung, ob ein anormaler Zustand vorliegt, 
wird aufgrund der Verteilung dieser Distanzen gelroffen. Es 
ergeben sich sowohl fur die Vektoren, die normalen Zustan- 
den entsprechen, als auch fur die Vektoren, die anormalen 
Zustanden entsprechen, typische Distanzverteilungen. Ein 
Vektor, der einem normalen Zustand entspricht, weist in sei- 
ner Nachbarschaft viele weitere Vektoren auf. Dementsprc- 
chend treten in einer auf einen solchen Vektor bezogenen 



Distanzverteilung viele "kleine" Distanzen auf. DieDistanz- 
verteilung eines solchen Vektors besitzt daher ihren Schwer- 
punkt bei "kleinen" Werten. 
Ein Vektor, der einem anormalen Zustand entspricht, 
5 weist in seiner Nachbarschaft nur wenige weitere Vektoren 
auf. Dementsprechend treten in einer auf einen solchen Vek- 
tor bezogenen Distanzverteilung viele "groBe" Distanzen 
auf. Die Distanzverteilung eines solchen Vektors besitzt da- 
her ihren Schwerpunkt bei "grofien" Werten. 

to Zur Berechnung der Distanzverteilung wird beispiels- 
weise jede Spalte der Distanzmatrix aufsteigend sortiert. 
Die geordnete Folge der Distanzen wird fiir jeden Vektor in 
ein eigenes Koordinatensystem eingetragen. Dabei entsteht 
fur je einen Vektor eine Distanzverteilung bzw. eine kumu- 

15 lierte Distanzverteilung. 

Zum Vergleich der Distanzverteilungen wird der Wert der 
geordneten Folge (Kennwert der Verteilung) verwendet 
werden, wenn ein wahlbarer Prozentsatz aller Vektoren (bei- 
spielsweise 10% aller Vektoren) innerhalb des gerade vor- 

20 liegenden Abstandswerts angeordnet sind. Bevorzugt ent- 
spricht dieser frei wahlbare Prozentsatz dem prozentualen 
Anteil der in den Trainingsvektoren vorkommenden "anor- 
malen" Vektoren. Ubersteigt dieser Kennwert K der Di- 
stanzverteilung einen bestimmte Schwelle, so handelt es 

25 beim entsprechenden Vektor urn einen Vektor, der einem 
anormalen Zustand entspricht. Bleibt der Kennwert K der 
Distanzverteilung unterhalb des Schwellwerts, so handelt es 
beim entsprechenden Vektor urn einen Vektor, der einem 
normalen Zustand entspricht. Die Fig. 3a und 3b zeigen Di- 

30 stanzplots fur einen normalen Zustand (Fig. 3a) und einen 
anormalen Zustand (Fig. 3b). Man erkennt, daB der Kenn- 
wert K im Fall des normalen Zustands deutlich kleiner ist als 
der Kennwert K im Fall des anormalen Zustands. Im Fall 
des normalen Zustands liegt der Kennwert K unterhalb des 

35 Schwellwerts S und im Fall des anormalen Zustands liegt 
der Kennwert K oberhalb des Schwellwerts S. 

Um herauszufinden, wieviele anormale Vektoren in den 
Daten vorhanden sind, kann man die Verteilungsfunktion 
der Kennwerte heranziehen. 

40 Manche der MaBzahlen, die als Komponenten der Input- 
vektoren fur einen Klassifikator dienen, besitzen Verteilun- 
gen, die mehrere deutlich getrennte Verteilungsmaxima be- 
sitzen. Dies kann bei der Suche nach anormalen Vektoren zu 
Fehleinschatzungen fiihren. Daher ist es bevorzugt, wenn 

45 als DistanzmaBe zur Ermittlung der Distanz von jedem Vek- 
tor zu jedem anderen Vektor, gewichtete DistanzmaBe ver- 
wendet werden. Besonders bevorzugt ist es, wenn die Di- 
stanzmaBe gemaB dem Informationsgehalt/Entropie (oder 
einer Funktion des Informationsgehalts/Entropie) derjewei- 

50 ligen MaBzahl gewichtet werden. Die Entropie der Vertei- 
lung einer MaBzahl laBt sich wie folgt berechnen: 

S i = kl i p i j ln(p i j ), 

wobei p l j die Wahrscheinlichkeit angibt, daB die i-te MaB- 
55 zahl den j-ten Wert annimmt, und k eine wahlbare Konstante 
ist. Als gewichtetes DistanzmaB zweier Vektoren erhalt so- 
mit beispielsweise 

d(x,y) = (5-(x i -y i )T q 

60 

bzw. 

d(x,y) = (I i f(S i ) (x'-yW* 

65 wobei f(S) eine geeignet gewahlte Funktion der Entropie ist. 
Durch die Beriicksichtigung der Entropie der MaBzahlver- 
teilung ist auch angemessene Behandlung multimodaler Da- 
ten gesichert. 
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Patentanspriiche 

1. Verfahren zur Uberwachung und/oder Steuerung 
von Bearbeitungsanlagen, welche zeitabhangige Bear- 
beitungsparameter aufweisen, mit den Schritten: 5 

a) gewunschte zeitabhangige Bearbeitungspara- 
meter werden als MeBkurve gemessen, 

b) aus den gemessenen Bearbeitungsparametern 
werden zeitunabhangige MaBzahlen erzeugt, und 

c) die zeitunabhangigen MaBzahlen werden in ei- io 
nen Klassifikator eingegeben, der zwischen nor- 
malen Zustanden der Bearbeitungsanlage und 
anormalen Zustanden der Bearbeitungsanlage un- 
terscheidet. 

2. Verfahren nach Anspruch 1, dadurch gekennzeich- 15 
net, daB als Klassifikator ein Neuronales Netz verwen- 
det wird. 

3. Verfahren nach Anspruch 2, dadurch gekennzeich- 
net, daB ein RCE-Netz mit verwendet wird. 

4. Verfahren nach Anspruch 4, dadurch gekennzeich- 20 
net, daB als Domane um einen Prototypen ein Hyper- 
quader oder eine Hypershare mit dem Radius X- ver- 
wendet wird. 

5. Verfahren nach einem der Anspriiche 1 bis 4, da- 
durch gekennzeichnet, daB die zeitunhangigen MaB- 25 
zahlen die Forderungen der ,, Universalitat , \ "Ahnlich- 
keitstreue", "Robustheit" und "Normierung" erfullen. 

6. Verfahren nach Anspruch 5, dadurch gekennzeich- 
net, daB zeitabhangige MeBkurven eines gewtinschten 
Bearbeitungsparameters durch eine Linearkombination 30 
von Polynomen, bevorzugt orthogonale Polynome, ap- 
proximiert und die Koeffizenten q der Linearkombina- 
tion als zeitunabhangige MaBzahlen verwendet wer- 
den. 

7. Verfahren nach Anspruch 5, dadurch gekennzeich- 35 
net, daB als MaBzahlen Distanzen der MeBkurve zu 
vorgegebenen Vergleichkurven verwendet werden. 

8. Verfahren nach Anspruch 5, dadurch gekennzeich- 
net, daB aus den MeBkurven eines Bearbeitungspara- 
meters eine mittlere MeBkurve berechnet wird und als 40 
MaBzahlen Abweichungen zu diescr mittleren MeB- 
kurve verwendet werden. 

9. Verfahren nach Anspruch 5, dadurch gekennzeich- 
net, daB wenn KenngroBen zur Charakterisierung der 
als Bitmaps aufgefaBten MeBkurven als MaBzahlen 45 
verwendet werden. 

10. Verfahren nach Anspruch 5, dadurch gekennzeich- 
net, daB die MeBkurve in Abschnitte unterteilt wird und 
die diesen Abschnitten berechneten Mittelwerte und/ 
oder Standardabweichungen als MaBzahlen verwendet 50 
werden. 

11. Verfahren nach einem der Anspriiche 1 bis 10, da- 
durch gekennzeichnet, daB der Klassifikator mit Trai- 
ningsvektoren, deren Komponenten zeitunabhangige 
MaBzahlen sind, trainiert wird. 55 

12. Verfahren nach Anspruch 11, dadurch gekenn- 
zeichnet, daB zur Vorbereitung des Trainings des Klas- 
sifikators aus den vorhandenen Trainingsvektoren die- , 
jenigen herausgefiltert werden, die als "anormal" ange- 
sehen werden. 60 

13. Verfahren nach Anspruch 12, dadurch gekenn- 
zeichnet, daB zur Filterung der anormalen Trainings- 
vektoren die Distanz von jedem Trainings vektor zu je- 
dem anderen Trainingsvektor mittels eines geeignet ge- 
wahlten DistanzmaBes ermittelt wird. 65 

14. Verfahren nach Anspruch 13, dadurch gekenn- 
zeichnet, daB diejenigcn TVainingsvektoren herausge- 
filtert werden, bei denen der Distanzwert K der geord- 
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neten Folge der Distanzen, bei dem ein vorgegebener 
Prozentsatz aller Vektoren kleinere Distanzen zu dem 
gerade vorliegenden Trainingsvektor aufweisen, einen 
vorgegebenen Schwellwert ubersteigt. 

15. Verfahren nach Anspruch 13 oder 14, dadurch ge- 
kennzeichnet, daB als DistanzmaBe zur Ermittlung der 
Distanz von jedem Trainingsvektor zu jedem anderen 
Trainingsvektor, gewichtete DistanzmaBe verwendet 
werden. 

16. Verfahren nach Anspruch 15, dadurch gekenn- 
zeichnet, daB die DistanzmaBe gemaB dem Informati- 
onsgehalt/Entropie oder einer Funktion des Mormati- 
onsgehalts/Entropie der jeweiligen MaBzahl gewichtet 
werden. 

17. Verfahren zur Filterung von Vektoren, die anormal 
angesehen werden, aus einer Menge von Vektoren, da- 
durch gekennzeichnet, daB die Distanz von jedem Vek- 
tor zu jedem anderen Vektor mittels eines geeignet ge- 
wahlten DistanzmaBes ermittelt wind und diejenigen 
Vektoren herausgefiltert werden, bei denen der Di- 
stanzwert K der geordneten Folge der Distanzen, bei 
dem ein vorgegebener Prozentsatz aller Vektoren klei- 
nere Distanzen zu dem gerade vorliegenden Vektor 
aufweisen, einen vorgegebenen Schwellwert uber- 
steigt. 

18. Verfahren nach Anspruch 17, dadurch gekenn- 
zeichnet, daB als DistanzmaBe zur Ermittlung der Di- 
stanz von jedem Vektor zu jedem anderen Vektor, ge- 
wichtete DistanzmaBe verwendet werden. 

19. Verfahren nach Anspruch 18, dadurch gekenn- 
zeichnet, daB die DistanzmaBe gemafi dem Informati- 
onsgehalt/Entropie oder einer Funktion des Informati- 
onsgehalts/Entropie der jeweiligen Vektorkomponen- 
ten gewichtet werden. 
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